Since a lexicon-based approach is more elegant scientifically, explaining the solution components and being easier to generalize to other applications, this paper provides a new approach for offensive language and hate speech detection on social media. Our approach embodies a lexicon of implicit and explicit offensive and swearing expressions annotated with contextual information. Due to the severity of the social media abusive comments in Brazil, and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate the models. Nevertheless, our method may be applied to any other language. The conducted experiments show the effectiveness of the proposed approach, outperforming the current baseline methods for the Portuguese language.
translated by 谷歌翻译
经典信息提取技术包括建立有关事实的问题和答案。确实,主观信息提取系统在上下文中识别观点和感觉仍然是一个挑战。在基于情感的NLP任务中,在上下文中,最重要的是进攻或仇恨的意见,几乎没有资源来提取信息。为了填补这一重要差距,这篇简短的论文提供了一种新的跨语义和上下文进攻词典,该词典由明确的和隐性的进攻和宣誓的意见表达组成,在两个不同的类别中注释了两种不同的类别:依赖于上下文和与上下文无关的进攻。此外,我们还提供标记来识别仇恨言论。在表达级别评估注释方法,并达到了高通道的一致性。提供的进攻词典有葡萄牙语和英语语言。
translated by 谷歌翻译
Due to the severity of the social media offensive and hateful comments in Brazil, and the lack of research in Portuguese, this paper provides the first large-scale expert annotated corpus of Brazilian Instagram comments for hate speech and offensive language detection. The HateBR corpus was collected from the comment section of Brazilian politicians' accounts on Instagram and manually annotated by specialists, reaching a high inter-annotator agreement. The corpus consists of 7,000 documents annotated according to three different layers: a binary classification (offensive versus non-offensive comments), offensiveness-level classification (highly, moderately, and slightly offensive), and nine hate speech groups (xenophobia, racism, homophobia, sexism, religious intolerance, partyism, apology for the dictatorship, antisemitism, and fatphobia). We also implemented baseline experiments for offensive language and hate speech detection and compared them with a literature baseline. Results show that the baseline experiments on our corpus outperform the current state-of-the-art for the Portuguese language.
translated by 谷歌翻译
生物学和人造药物需要处理现实世界中的不断变化。我们在四个经典的连续控制环境中研究了这个问题,并通过形态扰动增强。当不同身体部位的长度和厚度变化时,学习势头是挑战性的,因为需要控制政策才能适应形态以成功平衡和推进代理。我们表明,基于本体感受状态的控制策略的表现差,可以通过高度可变的身体配置,而(甲骨文)代理可以访问学习扰动的编码的(甲骨文)的性能要好得多。我们介绍了DMAP,这是一种以生物学启发的,基于注意力的策略网络体系结构。 DMAP将独立的本体感受处理,分布式策略与每个关节的单个控制器以及注意力机制结合在一起,从不同身体部位到不同控制器的动态门感觉信息。尽管无法访问(隐藏的)形态信息,但在所有考虑的环境中,DMAP都可以端对端训练,整体匹配或超越了Oracle代理的性能。因此,DMAP是从生物运动控制中实施原理的,为学习挑战的感觉运动任务提供了强烈的诱导偏见。总体而言,我们的工作证实了这些原则在挑战运动任务中的力量。
translated by 谷歌翻译
来自光场的大量空间和角度信息允许开发多种差异估计方法。但是,对光场的获取需要高存储和处理成本,从而限制了该技术在实际应用中的使用。为了克服这些缺点,压缩感应(CS)理论使光学体系结构的开发能够获得单个编码的光场测量。该测量是使用需要高计算成本的优化算法或深神经网络来解码的。从压缩光场进行的传统差异估计方法需要首先恢复整个光场,然后再恢复后处理步骤,从而需要长时间。相比之下,这项工作提出了通过省略传统方法所需的恢复步骤来从单个压缩测量中进行快速差异估计。具体而言,我们建议共同优化用于获取单个编码光场快照和卷积神经网络(CNN)的光学体系结构,以估计差异图。在实验上,提出的方法估计了与使用深度学习方法重建的光场相当的差异图。此外,所提出的方法在训练和推理方面的速度比估计重建光场差异的最佳方法要快20倍。
translated by 谷歌翻译
honeywords是插入数据库中的虚拟密码,以识别密码漏洞。主要困难是如何生产难以区分实际密码的蜂蜜字。尽管过去已经广泛研究了蜂蜜词的产生,但大多数现有研究假设攻击者对用户不了解。如果攻击者利用了用户的个人身份信息(PII),并且实际密码包括用户的PII,则这些蜂蜜词生成技术(HGT)可能会完全失败。在本文中,我们建议建立一个更安全和可信赖的身份验证系统,该系统采用现成的预训练的语言模型,不需要对真实密码进行进一步的培训以产生蜂蜜字,同时保留了相关的真实密码的PII,因此很明显提高攻击者的标准。我们进行了一个试点实验,要求个人在为GPT-3提供用户名和调整技术时区分真实的密码和蜂蜜字。结果表明,对于这两种技术,很难将真实密码与人工密码区分开。我们推测,较大的样本量可以揭示两种HGT技术之间的显着差异,这有利于我们提出的方法。
translated by 谷歌翻译
密码的安全性取决于对攻击者使用的策略的彻底理解。不幸的是,现实世界中的对手使用务实的猜测策略,例如字典攻击,在密码安全研究中很难模拟。字典攻击必须仔细配置和修改以表示实际威胁。但是,这种方法需要难以复制的特定领域知识和专业知识。本文回顾了各种基于深度学习的密码猜测方法,这些方法不需要域知识或有关用户密码结构和组合的假设。它还引入了GNPASSGAN,这是一种基于生成对抗网络的密码猜测工具,用于拖动离线攻击。与最先进的盘子型号相比,Gnpassgan能够猜测88.03 \%的密码更多,并生成31.69 \%的重复。
translated by 谷歌翻译
计算光学成像(COI)系统利用其设置中的光学编码元素(CE)在单个或多个快照中编码高维场景,并使用计算算法对其进行解码。 COI系统的性能很大程度上取决于其主要组件的设计:CE模式和用于执行给定任务的计算方法。常规方法依赖于随机模式或分析设计来设置CE的分布。但是,深神经网络(DNNS)的可用数据和算法功能已在CE数据驱动的设计中开辟了新的地平线,该设计共同考虑了光学编码器和计算解码器。具体而言,通过通过完全可区分的图像形成模型对COI测量进行建模,该模型考虑了基于物理的光及其与CES的相互作用,可以在端到端优化定义CE和计算解码器的参数和计算解码器(e2e)方式。此外,通过在同一框架中仅优化CE,可以从纯光学器件中执行推理任务。这项工作调查了CE数据驱动设计的最新进展,并提供了有关如何参数化不同光学元素以将其包括在E2E框架中的指南。由于E2E框架可以通过更改损耗功能和DNN来处理不同的推理应用程序,因此我们提出低级任务,例如光谱成像重建或高级任务,例如使用基于任务的光学光学体系结构来增强隐私的姿势估计,以维护姿势估算。最后,我们说明了使用全镜DNN以光速执行的分类和3D对象识别应用程序。
translated by 谷歌翻译
The representation space of neural models for textual data emerges in an unsupervised manner during training. Understanding how those representations encode human-interpretable concepts is a fundamental problem. One prominent approach for the identification of concepts in neural representations is searching for a linear subspace whose erasure prevents the prediction of the concept from the representations. However, while many linear erasure algorithms are tractable and interpretable, neural networks do not necessarily represent concepts in a linear manner. To identify non-linearly encoded concepts, we propose a kernelization of a linear minimax game for concept erasure. We demonstrate that it is possible to prevent specific non-linear adversaries from predicting the concept. However, the protection does not transfer to different nonlinear adversaries. Therefore, exhaustively erasing a non-linearly encoded concept remains an open problem.
translated by 谷歌翻译
Infomap是一种流行的方法,用于检测网络中节点的密度连接的“社区”。要检测此类社区,它建立在标准类型的马尔可夫链和信息理论中的想法。通过在网络上传播的疾病动态的动机,其节点可能具有异质疾病脱模速率,我们将Infomap扩展到吸收随机散步。为此,我们使用吸收缩放的图形,其中边缘权重根据吸收率缩放,以及马尔可夫时间扫描。我们的Infomap的一个扩展之一会聚到Infomap的标准版本,其中吸收率接近$ 0 $。我们发现,使用我们的Infomap扩展检测的社区结构可以从社区结构中显着不同,即一个使用不考虑节点吸收率的方法检测。此外,我们表明,局部动态引起的社区结构可以对环形格网络上的敏感感染恢复(SIR)动力学产生重要意义。例如,我们发现在适度数量的节点具有大的节点吸收率时,爆发持续时间最大化的情况。我们还使用我们的Infomap扩展来研究性接触网络中的社区结构。我们认为社区结构,与网络中无家可归者的不同吸收率相对应,以及对网络上的梅毒动力学的相关影响。我们观察到,当无家可归者人口中的治疗率低于其他人群时,当治疗率较低时,最终爆发规模可能会比其他人口相同。
translated by 谷歌翻译